01 基本概念
01 基本概念
这堂课基本上就是对概念的梳理。
部分基本概念
-
trajectory(轨迹):state-action-reward链条
-
return:轨迹得到的所有奖励之和,可以是无限的
-
discount rate:折扣因子
-
discounted return:折扣回报
-
episode(回合/片段):智能体从开始到结束的轨迹
-
episodic task:通常认为是有限的任务
-
continuing task:无限任务
马尔可夫链(MDP)
- 集合:状态、行动、对应奖励
- 概率分布:
- 状态转移概率(行动后到达不同状态的概率分布)
- 奖励概率(行动后获得奖励的概率分布)
- 策略
- 马尔可夫性质:未来与过去无关(对两个概率分布均成立)